Day 19｜模擬大腦的世界（上）：Neural Network 入門

2025 iThome 鐵人賽

DAY 19

AI & Data

讓電腦聽懂人話：30 天 NLP 入門系列第 19 篇

17th鐵人賽 neural network

張美珠

團隊美珠姨

2025-10-03 10:07:05

119 瀏覽

分享至

引言

人腦大約有 860 億顆神經元，這些神經元彼此透過突觸相連，可以將訊號接收跟發送出去。在這樣龐大的神經元數量的連接下形成一個非常複雜的網路，來維持大腦的運作～
人工神經網路（Artificial Neural Network, ANN）就是受到大腦神經元運作方式的啟發而設計出來的。就像下圖，每一個圓圈就像一個神經元，它們彼此連接，層層傳遞訊息，組成複雜的網路。

圖片來源：https://promactinfo.com/blogs/deep-learning-the-art-of-solving-complex-tasks-with-neural-networks

那這樣複雜的結構能做到什麼呢？

如果說傳統機器學習像是 「老師幫你設計規則」，那神經網路就像 「自己學習規則」。
就好像一個小朋友在學習辨認水果：傳統方法是老師告訴他「蘋果是紅色、圓形、有梗」，而神經網路則像小朋友自己觀察、比較各種水果，慢慢找到判斷蘋果的標準 🍎

當神經網路的層數越來越多，就形成了我們所說的深度學習架構。所以，神經網路可以說是深度學習的基石！我們會先用兩篇文章來介紹神經網路的基礎概念，接下來再繼續探索更複雜的架構與應用～～

Neural Network

一個神經元的計算公式為：

$y=f\Big(\sum_{i=1}^{n}w_i x_i+b\Big)$

𝑥𝑖：輸入 input
𝑤𝑖：權重 weight
𝑏：偏置 bias
𝑓：激活函數 activation function

圖片來源：https://medium.com/analytics-vidhya/neural-network-part1-inside-a-single-neuron-fee5e44f1e

多層感知機 (Multilayer Perceptron, MLP)

MLP 就是最經典的 前饋神經網路（Feedforward Neural Network）。
主要是由 輸入層（Input Layer）→ 隱藏層（Hidden Layers）→ 輸出層（Output Layer） 所組成。每個神經元都接收前一層的輸出，做加權求和，再經過激活函數產生新的輸出。

圖片來源：https://blog.gopenai.com/day-12-multi-level-perceptron-mlp-and-its-role-in-llms-a942e4a9e0c8

每一層的神經元數量是可以由設計者自己決定的，這是屬於模型的超參數（hyperparameter）之一。

輸入層：通常就是對應資料特徵的數量（例如文字向量維度）
隱藏層：可以自由設定要有多少層、每一層的神經元數量
- 多一點神經元 → 模型容量更大，可以學到更複雜的模式
- 太多神經元 → 訓練困難、容易過擬
輸出層：取決於任務需求
- 二分類 → 1 個神經元 + Sigmoid
- 多分類 → N 個神經元 + Softmax

激活函數（Activation Function）

如果我們的運算只停在「加權求和」，就把這個數值直接傳給下一層，那麼整個網路不管有多少層，本質上仍然只是線性變換，無法學會複雜的非線性模式。
激活函數（Activation Function） 的作用就是可以引入非線性的模式，也可以控制輸出範圍，方便後續層的處理。
以下介紹幾個常見的激活函數：

Sigmoid：將輸出壓到 0~1，適合二元分類。

$\sigma(z)=\frac{1}{1+e^{-z}}$
Tanh：將輸出壓到 -1~1，中心化後比 Sigmoid 穩定一些。

$\tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$
ReLu：非線性簡單、計算快、收斂速度快。

$\text{ReLU}(z)=\max(0,z)$